Covid-19-Pandemic继续在社交媒体上提出各种讨论或辩论的主题。为了探索大流行对人们生活的影响,了解公众对与大流行有关的实体(例如药物,疫苗)对社交媒体的关注和态度至关重要。但是,对现有命名实体识别(NER)或目标情感分析(TSA)数据集培训的模型具有有限的理解与COVID相关的社交媒体文本的能力有限,因为这些数据集并未从医学角度设计或注释。本文释放了Mets-COV,这是一种包含医疗实体的数据集和与COVID相关的推文中的目标情感。 Mets-COV包含10,000条带有7种实体的推文,包括4种医疗实体类型(疾病,药物,症状和疫苗)和3种通用实体类型(人,位置和组织)。为了进一步调查推文用户对特定实体的态度,选择了4种类型的实体(人,组织,药物和疫苗),并用用户情感注释,从而产生了具有9,101个实体(5,278个推文)的目标情感数据集。据我们所知,METS-COV是第一个收集与COVID相关推文的医疗实体和相应情感的数据集。我们通过广泛的实验对经典机器学习模型和最先进的深度学习模型进行基准测试。结果表明,该数据集在NER和TSA任务方面都有大量改进的空间。 METS-COV是开发更好的医学社交媒体工具并促进计算社会科学研究的重要资源,尤其是在流行病学方面。我们的数据,注释准则,基准模型和源代码公开可用(https://github.com/ylab-open/mets-cov),以确保可重复性。
translated by 谷歌翻译